在上一篇文章中介紹完基礎的Numpy語法,主要提供多維的矩陣運算,而今天要來介紹的Pandas,基於Numpy多維矩陣運算之外,更是提供DataFrame的方法,DataFrame可以將原本多維的陣列附上行、列標籤,當在整理數據資料時,增加程式撰寫靈活性,並且在資料分組、統計...等,可以清楚呈現。
import numpy as np
import pandas as pd
data = pd.Series([0.25, 0.33, 0.85, 1.0])
data.values
array([0.25, 0.33, 0.85, 1. ])
data[1]
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=['A', 'B', 'C', 'D'])
df
A B C D
0 6 9 2 6
1 7 4 3 7
2 7 2 5 4
area = pd.Series({'Alaska': 120000, 'Texas': 8875742,
'California': 453788}, name='area')
population = pd.Series({'California': 42577, 'Texas': 26448443,
'New York': 757367836}, name='population')
area.index | population.index
Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object'
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
columns=list('ACB'))
B
A C B
0 4 0 9
1 5 8 0
2 9 2 6